estat_sia_sih_agrot_corr


Indicadores


Medidas descritivas
agr Mínimo 1o Quartil Mediana Média 3o Quartil Máximo Desvio Padrão
agrmenld14a20 0 80 109 169.85 190.5 3937 251.06
agrmenlq14a20 0 214 312 462.51 566.0 5344 507.81
agrmenvmp14a20 0 1 10 46.84 46.0 2382 142.14
agrmaiguvmp14a20 0 0 0 10.26 6.5 225 24.99

Medidas descritivas
type Mínimo 1o Quartil Mediana Média 3o Quartil Máximo Desvio Padrão
agrindic1 -0.50 0.18 0.24 0.21 0.28 0.50 0.15
agrindic2 0.00 0.53 0.58 0.62 0.68 1.51 0.20
agrindic2_scaled -3.14 -0.44 -0.19 0.00 0.32 4.55 1.00
indicador -483.84 -253.99 -149.65 0.00 108.55 4844.87 512.97
indicador_scaled -0.94 -0.50 -0.29 0.00 0.21 9.44 1.00

Pesos (os indicadores propostos por Humberto possuem pesos dinâmicos, variando dependendo do número/quantidade de registros. Bem interessante):

agrmenld14a20 agrmenlq14a20 agrmenvmp14a20 agrmaiguvmp14a20
Primeiro autovetor (pesos) 0.16021136889 0.987077983839 0.002477639441 -0.001797888356
Indicador 1 -0.5/qt_registros -0.7/qt_registros 1.2/qt_registros 1.3/qt_registros
Indicador 2 0.07/qt_registros 0.71/qt_registros 1.43/qt_registros 2.14/qt_registros

Variância explicada por cada componente principal:

[1] 0.770 0.173 0.056 0.001

Com os quatro componentes principais explicamos 100% da variabilidade presente/gerada pelas quatro medidas. Apenas com o primeiro componente principal conseguimos explicar 77% dessa variabilidade.


anomalia_neoplasia_08a18

Em termos visuais, como base nos mapas, não vemos uma relação forte ou clara entre as prevalências de neoplasias e de anomalias. Com base nos gráficos de dispersão e cálculos de correlação linear de Pearson, não temos evidências de associação entre as prevalências de anomalias com as de neoplasias. Consequentemente, quando ajustarmos os modelos espaciais as prevalências de anomalias muito provavelmente terão efeito não significativo nas prevailências de neoplasias.

SIH, Período: 2008 : 2018


Queremos testar a associação entre as prevalências de neoplasias e anomalias, mas levando em consideração o efeito/dependência espacial (se existir). Tal tarefa é performada via um modelo linear espacial, também chamado de regressão (linear) espacial. Com um modelo desses somos capazes de quantificar a associação da prevalência de anomalias com a de neoplasias (em outras palavras, explicar a prevalência de neoplasias em termos da prevalência de anomalias), ao mesmo tempo que acomodamos a dependência/efeito espacial.

Além de não sabermos se esse efeito espacial realmente existe, temos ainda que “adivinhar” como a correlação espacial se dá. Para isso, usamos diferentes modelos i.e., diferentes tipos de correlação no espaço (figura abaixo). O primeiro modelo, um modelo Gaussiano/Normal i.i.d. (independente e identicamente distribuído) é o modelo mais simples, podendo ser chamado de baseline. Tal modelo basicamente não tem efeito espacial (é uma regressão/modelo linear simples), então podemos comparar os demais modelos (com efeito espacial) em relação a ele, o que vai nos dizer se o efeito espacial é realmente presente/significativo, e qual modelo melhor capta tal efeito/correlação.

As prevalências de neoplasias variam de 0 até 55, um range grande de variação e principalmente, com a imensa maioria dos municípios tendo prevalências entre 10 e 30. Isso somado ao fato de estarmos modelando a média, faz com que todos os modelos estimem prevalências no intervalo 10:30. Nos mapas acima, na escala das prevalências observadas, é praticamente impossível distinguir os municípios. Abaixo temos os mesmos mapas mas permitindo que cada um varie de acordo com seu próprio range.

Vemos que o melhor ajuste é obtido com o modelo BYM. O padrão de cores obtido é basicamente o mesmo dos dados, o ponto é que os valores de prevalência estão errados. Como conclusão, basicamente, podemos dizer que tal modelo funciona muito bem pra discriminar, isto é, quais municipíos possuem prevalências menores, maiores, na média. Contudo, se quisermos prever ou estimar a prevalência do munícipio, o modelo erra.

Abaixo temos a distribuição do efeito das prevaiências de anomalias, obtidas no modelo Gaussiano IID. Vemos que mesmo num modelo sem efeito espacial as anomalias não são significativas (efeito médio/estimado em 0.018).

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 19.183 1.294 16.641 19.183 21.722 19.183 0
a_sih 0.018 0.042 -0.065 0.018 0.101 0.018 0

Para contornar a situação aplicamos uma transformação nas prevalências, para reduzir a variabilidade. Como não temos prevalências zero ou negativas, aplicamos a transformação logaritmica. Os mapas resultantes são apresentados logo abaixo.

Pelos mapas podemos ver que o modelo Gaussiano IID sem efeito espacial performa bem, o que nos faz duvidar da necessidade de um efeito/correlação espacial, dado que somos capazes de capturar o padrão de (log) neoplasias apenas com as prevalências de anomalias. Visualmente os melhores resultados (ótimos resultados) são obtidos com os modelos Gaussiano IID, BYM, e BYM2. Com base nas medidas abaixo vemos que o melhor modelo é o BYM2, com ambos os modelos BYM sendo substancialmente melhores que o modelo sem efeito espacial.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID -1897.829 -2063.474 -636.9180 -399.761
Modelo ICAR 686.165 686.041 298.0592 -663.465
Modelo CAR Próprio 686.298 685.505 298.0298 -378.230
Modelo BYM -2285.460 -2367.373 -826.2657 -292.832
Modelo BYM2 -2481.076 -2287.657 -783.0862 -142.503

Abaixo temos as conclusões em termos da prevalência de anomalias. Ela não é significativa, com uma estimativa de 0.001 (erro padrão de 0.003). Seu intervalo de confiança de 95% vai de -0.004 até 0.006. Como esse intervalo contém o valor 0 temos confiança pra dizer que tal efeito não é significativo. Ao lado da densidade temos o mapa do efeito espacial obtido com o modelo BYM2. Vemos ali quais regiões tem um efeito espacial mais forte, mais fraco, e neutro.

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 2.792 0.078 2.639 2.792 2.945 2.792 0
a_sih 0.001 0.003 -0.004 0.001 0.006 0.001 0

SIA, Período 2008 : 2018


Todos os mapas ficaram praticamente idênticos. O fato do modelo sem efeito espacial ter gerado um mapa muito similar ao das prevalências de neoplasias indica uma fortíssima relação/associação com as prevalências de anomalias, em termos de atendimentos ambulatoriais. Os mapas não mudaram quando inserimos o efeito/correlação espacial, indicando que talvez essa associação seja explicada pelo padrão espacial. Quando olhamos, abaixo, para as medidas resumo dos modelos, vemos que os modelos CAR próprio e BYM são os melhores. Ficamos com o BYM.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID -1851.097 -2023.848 -643.3876 -1412.867
Modelo ICAR -1768.750 -1959.522 -611.0444 -1520.280
Modelo CAR Próprio -2317.394 -2362.867 -823.5727 -1233.929
Modelo BYM -2283.613 -2349.611 -817.5861 -1151.334
Modelo BYM2 -1909.755 -2063.598 -673.0294 -1010.921

Aparentemente um modelo com efeito de anomalia e correlação espacial é redundante, com os dois termos explicando a mesma variabilidade de neoplasias. Em outras palavras, com o modelo BYM temos um forte efeito espacial e um efeito nulo (mas com uma grande variabilidade) da prevalência de anomalias.

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 22.273 0.273 21.737 22.273 22.809 22.273 0
a_sia -0.004 0.079 -0.159 -0.004 0.150 -0.004 0

anomalia_neoplasia_agrotoxico_14a18


Temos aqui três grupos de agrotóxicos disponíveis: g27, g07, e g04. Com os mapas abaixo podemos ver que eles diferem na escala, mas que espacialmente e em termos de intensidade parecem ser extremamente redundantes (a mesma coisa).

Pra confirmar calculamos a correlação (linear de Pearson) entre eles.

          g27       g07       g04
g27 1.0000000 0.9990698 0.9930429
g07 0.9990698 1.0000000 0.9935692
g04 0.9930429 0.9935692 1.0000000

Conclusão: eles são extremamentes redundantes e colineares.

Consequência: não faz sentido usar as três na modelagem, temos que escolher uma.

Abaixo temos os gráficos das prevalências de anomalias versus as prevalências de neoplasias, com as cores dos pontos indicando o valor correspondente no grupo de agrotóxicos. Novamente, vemos que não existe diferença entre esses grupos de agrotóxicos.

Para decidirmos qual usar, ajustamos um modelo BYM com o efeito das anomalias e o efeito dos três grupos de agrotóxicos, os efeitos são apresentandos abaixo.

Curiosamente, tanto no SIH quanto no SIA, o g27 apresenta um efeito negativo e os demais, um efeito positivo. Dos três, o que apresenta efeito mais distante de zero é o g04, em ambos. Então ficamos com ele.

O próximo passo é ver sua forma funcional em relação as prevalências de anomalia.

Com os gráficos de dispersão abaixo vemos que não existe uma forte relação. Os coeficientes de correlação que são significativos, o são simplesmente pelo fato de termos pouquíssimos municípios com g04 > 200. São esses poucos municípios que acabam impactando a tendência linear (em nenhum gráfico vemos uma possível tendência quadrática ou de maior ordem).

Sendo assim, vamos considerar três possíveis efeitos para tentar entender as prevalências de neoplasias: as prevalências de anomalias, os agrotóxicos g04, e sua interação simples.

SIH, Período 2014:2018


Aqui vemos que os modelos CAR próprio e BYM ajustam/capturam bem o padrão espacial. Abaixo vemos cada um na sua escala própria.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID -1901.074 -2074.329 -669.9495 -1607.244
Modelo ICAR 2998.653 3007.823 1456.1689 -1851.061
Modelo CAR Próprio -2262.008 -2364.328 -824.5747 -1571.371
Modelo BYM 1365.089 1905.536 1324.5359 -1536.827
Modelo BYM2 2430.543 2214.673 1451.1142 -1354.137

Ficamos com o modelo CAR Próprio.

Abaixo temos os efeitos dos parâmetros.

mean sd 0.025quant 0.5quant 0.975quant mode kld
(Intercept) 22.884 2.291 18.365 22.888 27.374 22.897 0
ag_sih 0.201 0.053 0.097 0.201 0.305 0.201 0
g04 -0.095 0.016 -0.126 -0.095 -0.063 -0.095 0
ag_sih:g04 0.002 0.001 0.001 0.002 0.003 0.002 0

Todas as variáveis, e sua interação, apresentam efeitos estatísticamente significativos (intervalos de confiança não englobam o zero). A prevalência de anomalias apresenta um efeito/associação positiva de 0.2. A cada aumento de unidade de anomalia esperamos um aumento de 0.2 nas (prevalências de) neoplasias. O grupo 4 de agrotóxicos apresentam um efeito negativo de -0.1. Conforme aumentamos os agrotóxicos esperamos que as neoplasias diminuam.

A seguir temos o mapa do efeito espacial, não capturando todo o padrão de neoplasias, indicando a importâncias das covariáveis.

SIA, Período 2014:2018


Em termos de atendimentos ambulatoriais (SIA) vemos bons resultados com todos os modelos.

Model DIC WAIC CPO MLIK
Modelo Gaussiano IID -1880.173 -2044.365 -654.3134 -1563.401
Modelo ICAR -1636.789 -1967.034 -614.1409 -1688.885
Modelo CAR Próprio -2315.656 -2096.596 -689.2653 -1403.750
Modelo BYM -2172.018 -2025.097 -654.6389 -1321.226
Modelo BYM2 -2368.824 -2270.932 -776.1206 -1212.575

Ficamos com o modelo BYM2.

Abaixo temos as distribuições dos seus efeitos.

              mean    sd 0.025quant 0.5quant 0.975quant   mode kld
(Intercept) 26.541 0.645     25.273   26.541     27.807 26.541   0
ag_sia       0.045 0.152     -0.253    0.045      0.343  0.045   0
g04          0.008 0.009     -0.010    0.008      0.025  0.008   0
ag_sia:g04  -0.002 0.002     -0.007   -0.002      0.002 -0.002   0

Como previsto nos gráficos da análise descritiva, nada é estatisticamente significativo.

Abaixo temos o efeito espacial predito do modelo BYM2.

Neoplasia -> Anomalia


Até aqui estudamos o (possível) efeito da prevalência de anomalias na prevalência de neoplasias. Viviane perguntou “e o contrário? neoplasias afetando/se relacionando com as anomalias”.

Olhar para o outro lado, neoplasia -> anomalia, não vai gerar resultados ou conclusões diferentes. A relação entre as variáveis é a mesma, independente do sentido em que olhamos. O que pode e deve mudar é simplesmente o valor dos coeficientes. Antes estávamos descrevendo as prevalências observadas de neoplasias em função das prevalências de anomalias. Se mudamos a direção em que olhamos para essa relação, o efeito/relação se mantém, apenas mudamos a lógica de “quem usamos para explicar quem”.

08:18


No eixo y temos sempre o que consideramos como a resposta do nosso modelo, aquilo que queremos entender em função de outras variáveis/características. Os gráficos do lado esquerdo correspondem ã aquilo que já fizemos, anomalias -> neoplasias. Do lado direito invertemos essa ordem. Contudo, a relação entre as variáveis se mantém basicamente a mesma.

14:18


Olhando apenas para o período 2014 até 2018, em termos de internamentos hospitalares (SIH) - o único cenário em que o efeito das anomalias foi significativo nas neoplasias, temos um efeito mais forte/contundente. Possívelmente mais significativo. Contudo, a conclusão/resultado se mantém: as prevalências se relacionam/estão associadas de maneira positiva.

Grupos mais prevalentes


Para cada um dos quatro cenários (anomalias SIA, neoplasias SIA, anomalias SIH, neoplasias SIH) temos os três grupos mais frequentes. Abaixo, vemos como os grupos, dentro de cada cenário, são altamente correlacionados. Além dessa fortíssima correlação positiva, vemos como o munícipio de Curitiva se destaca de maneira ampla, principalmente em termos de atendimentos ambulatoriais (SIA).

Como indicado pelos gráficos de dispersão, os grupos são altamente correlacionados. No mapa de calor abaixo temos os valores das correlações lineares de Pearson entre todos os grupos de anomalias e neoplasias por sistema, SIA e SIH.

Vemos que os grupos são menos correlacionados nas internações hospitalares (SIH), comparado ao SIA. Contudo, mesmo no SIH as correlações são bem fortes (> 0.5). O que podemos dizer do SIA é que os grupos apresentam uma correlação fortíssima, não apenas forte.

No SIA, entre as anomalias e entre as neoplasias, todos os grupos apresentam correlação > 0.9. Quando cruzamos anomalias com neoplasias, com exceção do AG1 (fenda labial palatina) com NG3 (neoplasia de órgãos genitais masculinos), todas as correlação são > 0.9.

No SIH as correlações são mais fracas, mas ainda assim tudo é consideravelmentre correlacionado (correlações mais fortes entre os grupos de anomalias).

AG1 (SIA): Fenda labial palatina (Q35-Q37): 1312

AG2 (SIA): Anomalias cromossômicas (Q90-Q99): 272

AG3 (SIA): Malformações do aparelho digestivo (Q38-Q450): 198

NG1 (SIA): Neoplasia Maligna de mama (C50): 30633

NG2 (SIA): Neoplasia de órgãos digestivos (C15-C26): 24810

NG3 (SIA): Neoplasia de órgãos genitais masculinos (C60-C63): 17458

AG1 (SIH): Malformação aparelho circulatório (Q20-Q28):2452

AG2 (SIH): Deformidade aparelho osteo muscular (Q65-Q79) :2418

AG3 (SIH): Malformações de órgãos genitais (Q50-Q56):1498

NG1 (SIH): Neoplasia de órgãos digestivos (C15-C26): 11842

NG2 (SIH): Neoplasia benigna (D10-D36):7449

NG3 (SIH): Neoplasia maligna de tecidos linfóides e hetopoeticos (C81-C96): 6235

Abaixo, pela magnitude dos p-valores vemos que todas as correlações são altamente significativas.

(1e-04, por exemplo, significa 0.0001).

SIA correlations
x y estimate conf.low conf.high p.value
ag1 ag2 0.923 0.907 0.936 9.15141337790244e-167
ag1 ag3 0.949 0.938 0.958 2.03164725463529e-200
ag2 ag3 0.954 0.944 0.962 1.20615032956648e-209
ng1 ng2 0.980 0.976 0.984 4.74752669296261e-282
ng1 ng3 0.989 0.987 0.991 0
ng2 ng3 0.963 0.955 0.970 2.35552588503038e-228
ag1 ng1 0.895 0.873 0.913 6.00520887771236e-141
ag2 ng2 0.935 0.922 0.947 3.51038717621423e-181
ag3 ng3 0.919 0.902 0.933 4.15380064117341e-162
ag1 ng2 0.943 0.930 0.953 4.01352299645651e-191
ag1 ng3 0.846 0.815 0.872 2.39027260883876e-110
ag2 ng1 0.935 0.922 0.947 1.9539814848579e-181
ag2 ng3 0.907 0.887 0.923 8.270801105344e-151
ag3 ng1 0.949 0.938 0.958 5.82938765831387e-201
ag3 ng2 0.963 0.955 0.969 3.44650841877967e-227
SIH correlations
x y estimate conf.low conf.high p.value
ag1 ag2 0.832 0.799 0.860 1.09045940308909e-103
ag1 ag3 0.891 0.869 0.910 1.89873367838484e-138
ag2 ag3 0.821 0.786 0.850 1.48287967929697e-98
ng1 ng2 0.617 0.552 0.674 3.33542226515059e-43
ng1 ng3 0.740 0.692 0.781 2.56976817992714e-70
ng2 ng3 0.780 0.738 0.816 8.43626742115523e-83
ag1 ng1 0.642 0.581 0.696 8.87230861792774e-48
ag2 ng2 0.730 0.680 0.773 1.44188731486138e-67
ag3 ng3 0.865 0.837 0.887 1.13087020824264e-120
ag1 ng2 0.775 0.733 0.812 3.08559900936301e-81
ag1 ng3 0.856 0.827 0.880 1.17183831699949e-115
ag2 ng1 0.651 0.590 0.704 2.13924491899199e-49
ag2 ng3 0.825 0.790 0.854 3.00650518506124e-100
ag3 ng1 0.630 0.567 0.686 1.36010906158953e-45
ag3 ng2 0.779 0.737 0.815 1.8597747031005e-82

Plotando os mapas, vemos que nos atendimentos ambulatorias (SIA), o município de Curitiba se destaca demais. Fazendo com que todos os demais municípios se pareçam mais similares do que de fato são.

Ao aplicar a transformação raiz quadrada nas prevalências, vemos uma maior distinção entre os municípios. Contudo, não vemos nenhuma diferença visualmente significativa entre os grupos de anomalias ou de neoplasias. Além disso, vemos a clara correlação positiva de todos os grupos de anomalias com todss os grupos de neoplasias.

Temos basicamente o mesmo comportamento com os internamentos hospitalares (SIH). Em AG3 (malformações de órgãos genitais) temos mais municípios sem dados/ocorrências. Em NG1 (neoplasia de órgãoes digestivos) temos algumas leves diferenças nos padrões. Contudo, ainda é tudo altamente correlacionado.

References


The main R (R Core Team, 2021) packages used in this analysis were: dplyr (Wickham et al., 2021), tidyr (Wickham, 2021), stringr (Wickham, 2019), purrr (Henry and Wickham, 2020), rlang (Henry and Wickham, 2021), ggplot2 (Wickham, 2016), geobr (Pereira and Gancalves, 2021), and INLA (Rue et al., 2009; Lindgren and Rue, 2015; Bakka et al., 2018),

R Core Team (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/

Wickham, H., François, R., Henry, L., Müller, K. (2021). dplyr: A Grammar of Data Manipulation. R package version 1.0.7. https://CRAN.R-project.org/package=dplyr

Wickham, H. (2021). tidyr: Tidy Messy Data. R package version 1.1.3. https://CRAN.R-project.org/package=tidyr

Wickham, H. (2019). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.4.0. https://CRAN.R-project.org/package=stringr

Henry, L., Wickham, H. (2020). purrr: Functional Programming Tools. R package version 0.3.4. https://CRAN.R-project.org/package=purrr

Henry, L., Wickham, H. (2021). rlang: Functions for Base Types and Core R and ‘Tidyverse’ Features. R package version 0.4.11. https://CRAN.R-project.org/package=rlang

Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York

Pereira, R. H. M., Goncalves, C. N. (2021). geobr: Download Official Spatial Data Sets of Brazil. R package version 1.6.4. https://CRAN.R-project.org/package=geobr

Rue, H., Martino, S., Chopin, N. (2009), Approximate Bayesian Inference for Latent Gaussian Models Using Integrated Nested Laplace Approximations (with discussion), Journal of the Royal Statistical Society B, 71, 319-392.

Lindgren, F., Rue, H. (2015). Bayesian Spatial Modelling with R-INLA. Journal of Statistical Software, 63(19), 1-25. URL http://www.jstatsoft.org/v63/i19/.

Bakka, H., Rue, H., Fuglstad, G. A., Riebler, A., Bolin, D., Krainski, E., Simpson, D., Lindgren, F. (2018) Spatial modelling with R-INLA: A review. Invited extended review, arxiv:1802.06350.